智能论文笔记

X-ICP: Localizability-Aware LiDAR Registration for Robust Localization in Extreme Environments

Turcan Tuna , Julian Nubert , Yoshua Nava , Shehryar Khattak , Marco Hutter

分类：机器人

2022-11-29

Modern robotic systems are required to operate in challenging environments, which demand reliable localization under challenging conditions. LiDAR-based localization methods, such as the Iterative Closest Point (ICP) algorithm, can suffer in geometrically uninformative environments that are known to deteriorate registration performance and push optimization toward divergence along weakly constrained directions. To overcome this issue, this work proposes i) a robust multi-category (non-)localizability detection module, and ii) a localizability-aware constrained ICP optimization module and couples both in a unified manner. The proposed localizability detection is achieved by utilizing the correspondences between the scan and the map to analyze the alignment strength against the principal directions of the optimization as part of its multi-category LiDAR localizability analysis. In the second part, this localizability analysis is then tightly integrated into the scan-to-map point cloud registration to generate drift-free pose updates along well-constrained directions. The proposed method is thoroughly evaluated and compared to state-of-the-art methods in simulation and during real-world experiments, underlying the gain in performance and reliability in LiDAR-challenging scenarios. In all experiments, the proposed framework demonstrates accurate and generalizable localizability detection and robust pose estimation without environment-specific parameter tuning.

translated by 谷歌翻译

Present and Future of SLAM in Extreme Underground Environments

Kamak Ebadi , Lukas Bernreiter , Harel Biggie , Gavin Catt , Yun Chang , Arghya Chatterjee , Christopher E. Denniston , Simon-Pierre Deschênes , Kyle Harlow , Shehryar Khattak

分类：机器人

2022-08-02

本文通过讨论参加了为期三年的SubT竞赛的六支球队的不同大满贯策略和成果，报道了地下大满贯的现状。特别是，本文有四个主要目标。首先，我们审查团队采用的算法，架构和系统；特别重点是以激光雷达以激光雷达为中心的SLAM解决方案（几乎所有竞争中所有团队的首选方法），异质的多机器人操作（包括空中机器人和地面机器人）和现实世界的地下操作（从存在需要处理严格的计算约束的晦涩之处）。我们不会回避讨论不同SubT SLAM系统背后的肮脏细节，这些系统通常会从技术论文中省略。其次，我们通过强调当前的SLAM系统的可能性以及我们认为与一些良好的系统工程有关的范围来讨论该领域的成熟度。第三，我们概述了我们认为是基本的开放问题，这些问题可能需要进一步的研究才能突破。最后，我们提供了在SubT挑战和相关工作期间生产的开源SLAM实现和数据集的列表，并构成了研究人员和从业人员的有用资源。

translated by 谷歌翻译

Team CERBERUS Wins the DARPA Subterranean Challenge: Technical Overview and Lessons Learned

Marco Tranzatto , Mihir Dharmadhikari , Lukas Bernreiter , Marco Camurri , Shehryar Khattak , Frank Mascarich , Patrick Pfreundschuh , David Wisth , Samuel Zimmermann , Mihir Kulkarni

分类：机器人

2022-07-11

本文介绍了Cerberus机器人系统系统，该系统赢得了DARPA Subterranean挑战最终活动。出席机器人自主权。由于其几何复杂性，降解的感知条件以及缺乏GPS支持，严峻的导航条件和拒绝通信，地下设置使自动操作变得特别要求。为了应对这一挑战，我们开发了Cerberus系统，该系统利用了腿部和飞行机器人的协同作用，再加上可靠的控制，尤其是为了克服危险的地形，多模式和多机器人感知，以在传感器退化，以及在传感器退化的条件下进行映射以及映射通过统一的探索路径计划和本地运动计划，反映机器人特定限制的弹性自主权。 Cerberus基于其探索各种地下环境及其高级指挥和控制的能力，表现出有效的探索，对感兴趣的对象的可靠检测以及准确的映射。在本文中，我们报告了DARPA地下挑战赛的初步奔跑和最终奖项的结果，并讨论了为社区带来利益的教训所面临的亮点和挑战。

translated by 谷歌翻译

Locomotion Policy Guided Traversability Learning using Volumetric Representations of Complex Environments

Jonas Frey , David Hoeller , Shehryar Khattak , Marco Hutter

分类：机器人

2022-03-29

尽管腿部机器人运动取得了进展，但在未知环境中的自主导航仍然是一个空旷的问题。理想情况下，导航系统在不确定性下在安全限制内运行时，利用机器人的运动功能的全部潜力。机器人必须感知和分析周围地形的遍历性，这取决于硬件，运动控制和地形特性。它可能包含有关穿越地形所需的风险，能量或时间消耗的信息。为了避免手工制作的遍历成本功能，我们建议通过使用物理模拟器在随机生成的地形上模拟遍历的遍历策略，以收集有关机器人和运动策略的遍历性信息。在现实中使用的相同的运动策略并行控制了数千个机器人，以获得57年的现实运动体验。对于在Real机器人上的部署，培训了一个稀疏的卷积网络，以预测模拟的遍历性成本，该成本是根据已部署的运动策略量身定制的，它是从环境的完全几何表示，以3D素体占用图的形式。该表示避免了对常用的高程图的需求，在存在悬垂障碍物以及多层或低天花板方案的情况下，这些图形图很容易出错。在各种室内和自然环境中，为腿部机器人Anymal的路径计划证明了拟议的遍历性预测网络的有效性。

translated by 谷歌翻译

Learning-based Localizability Estimation for Robust LiDAR Localization

Julian Nubert , Etienne Walther , Shehryar Khattak , Marco Hutter

分类：机器人 | 人工智能 | 计算机视觉 | 机器学习

2022-03-11

由于范围和几何形状的直接集成，基于激光雷达的本地化和映射是许多现代机器人系统中的核心组件之一，可以实时进行精确的运动估算和高质量的高质量图。然而，由于场景中存在不足的环境约束，这种对几何形状的依赖可能导致定位失败，发生在隧道等自对称环境中。这项工作通过提出一种基于神经网络的估计方法来检测机器人操作过程中的（非）本地化性，从而解决了此问题。特别注意扫描到扫描登记的可靠性，因为它是许多激光射击估计管道中的关键组成部分。与以前的主要检测方法相反，该方法通过估算原始传感器测量的可定位性而无需评估基本的注册优化，可以尽早检测失败。此外，由于需要启发式的脱落检测阈值，因此以前的方法在跨环境和传感器类型的概括能力上仍然有限。提出的方法通过从不同环境的集合中学习，从而避免了这个问题，从而使网络在各种情况下运行。此外，该网络专门针对模拟数据进行培训，避免了艰苦的数据收集，以挑战性和退化（通常难以访问）环境。在跨越具有挑战性的环境和两种不同的传感器类型上进行的现场实验中，对所提出的方法进行了测试。观察到的检测性能与特定环境特异性阈值调整后的最新方法相当。

translated by 谷歌翻译

Fine-tuned CLIP Models are Efficient Video Learners

Hanoona Rasheed , Muhammad Uzair Khattak , Muhammad Maaz , Salman Khan , Fahad Shahbaz Khan

分类：计算机视觉 | 人工智能

2022-12-06

Large-scale multi-modal training with image-text pairs imparts strong generalization to CLIP model. Since training on a similar scale for videos is infeasible, recent approaches focus on the effective transfer of image-based CLIP to the video domain. In this pursuit, new parametric modules are added to learn temporal information and inter-frame relationships which require meticulous design efforts. Furthermore, when the resulting models are learned on videos, they tend to overfit on the given task distribution and lack in generalization aspect. This begs the following question: How to effectively transfer image-level CLIP representations to videos? In this work, we show that a simple Video Fine-tuned CLIP (ViFi-CLIP) baseline is generally sufficient to bridge the domain gap from images to videos. Our qualitative analysis illustrates that the frame-level processing from CLIP image-encoder followed by feature pooling and similarity matching with corresponding text embeddings helps in implicitly modeling the temporal cues within ViFi-CLIP. Such fine-tuning helps the model to focus on scene dynamics, moving objects and inter-object relationships. For low-data regimes where full fine-tuning is not viable, we propose a `bridge and prompt' approach that first uses fine-tuning to bridge the domain gap and then learns prompts on language and vision side to adapt CLIP representations. We extensively evaluate this simple yet strong baseline on zero-shot, base-to-novel generalization, few-shot and fully supervised settings across five video benchmarks. Our code is available at https://github.com/muzairkhattak/ViFi-CLIP.

translated by 谷歌翻译

Heterogeneous Ensemble Learning for Enhanced Crash Forecasts -- A Frequentest and Machine Learning based Stacking Framework

Numan Ahmad , Behram Wali , Asad J. Khattak

分类：机器学习

2022-07-21

多种统计和机器学习方法用于使用机器学习方法在特定道路上建模崩溃频率，通常具有更高的预测准确性。最近，包括堆叠在内的异质集合方法（HEM）已成为更准确和强大的智能技术，并且通常通过提供更可靠和准确的预测来解决模式识别问题。在这项研究中，我们将堆叠的关键下摆方法之一应用于城市和郊区动脉的五个车道段（5T）上的崩溃频率。将堆叠的预测性能与参数统计模型（泊松和负二项式）和三种最先进的机器学习技术（决策树，随机森林和梯度增强）进行了比较，每种技术都被称为基础学习者。通过采用最佳的体重方案通过堆叠结合单个基础学习者，由于规格和预测准确性的差异，各个基础学习者中有偏见的预测问题可以避免。从2013年到2017年收集并集成了包括崩溃，流量和道路清单在内的数据。数据分为培训，验证和测试数据集。统计模型的估计结果表明，除其他因素外，崩溃随着不同类型的车道的密度（每英里数）的增加而增加。各种模型的样本外预测的比较证实了堆叠优于所考虑的替代方法的优越性。从实际的角度来看，堆叠可以提高预测准确性（与仅使用具有特定规范的基本学习者相比）。当系统地应用时，堆叠可以帮助确定更合适的对策。

translated by 谷歌翻译

Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection

Hanoona Rasheed , Muhammad Maaz , Muhammad Uzair Khattak , Salman Khan , Fahad Shahbaz Khan

分类：计算机视觉 | 人工智能

2022-07-07

现有的开放式视频探测器通常通过利用不同形式的弱监督来扩大其词汇大小。这有助于推断出新的对象。开放式视频检测（OVD）中使用的两种流行形式的弱点，包括预审计的剪辑模型和图像级监督。我们注意到，这两种监督模式均未在检测任务中最佳地对齐：剪辑经过图像文本对培训，并且缺乏对象的精确定位，而图像级监督已与启发式方法一起使用，这些启发式方法无法准确指定本地对象区域。在这项工作中，我们建议通过从剪辑模型中执行以对象为中心的语言嵌入来解决此问题。此外，我们仅使用伪标记的过程来视觉上仅通过图像级监督对象，该过程提供高质量的对象建议，并有助于在训练过程中扩展词汇。我们通过新的重量转移函数在上述两个对象对准策略之间建立桥梁，该策略汇总了它们的免费强度。本质上，提出的模型试图最大程度地减少OVD设置中对象和以图像为中心表示之间的差距。在可可基准上，我们提出的方法在新颖类中实现了40.3 AP50，绝对11.9比以前的最佳性能获得了11.9的增长。对于LVIS，我们超过了5.0 Mask AP的最先进VILD模型，总体上有3.4个。。代码：https：//bit.ly/3byzoqp。

translated by 谷歌翻译